Z każdym rokiem ceny zestawów rosną.
Jest to kluczowa obserwacja dla wytrenowanego modelu. Na jego podstawie można wymyśleć własny zestaw i przewidzieć w jakim roku mogłaby być jego cena.
library(knitr)
library(readr)
library(dplyr)
library(ggplot2)
library(DT)
library(plotly)
library(caret)
set.seed(123)
data_files <- c("inventories", "inventory_parts", "parts", "part_categories", "part_relationships", "elements", "colors", "inventory_minifigs", "minifigs", "inventory_sets", "sets", "themes")
data_list <- lapply(data_files, function(x) read_csv(paste0("Data/", x, ".csv")))
additional_data <- read_csv("Data/Brickset-Sets.csv")
[1] 37265 3
Min. : 1
1st Qu.: 14424
Median : 54379
Mean : 61104
3rd Qu.: 88842
Max. :194312
Min. : 1.000
1st Qu.: 1.000
Median : 1.000
Mean : 1.091
3rd Qu.: 1.000
Max. :16.000
Length:37265
Class :character
Mode :character
[1] 1180987 6
Min. : 1
1st Qu.: 9404
Median : 22838
Mean : 50849
3rd Qu.: 87088
Max. :194312
Length:1180987
Class :character
Mode :character
Min. : -1.0
1st Qu.: 4.0
Median : 15.0
Mean : 131.8
3rd Qu.: 71.0
Max. :9999.0
Min. : 1.00
1st Qu.: 1.00
Median : 2.00
Mean : 3.37
3rd Qu.: 4.00
Max. :3064.00
Mode :logical
FALSE:1104122
TRUE :76865
Length:1180987
Class :character
Mode :character
[1] 52615 4
Length:52615
Class :character
Mode :character
Length:52615
Class :character
Mode :character
Min. : 1.00
1st Qu.:17.00
Median :41.00
Mean :38.91
3rd Qu.:60.00
Max. :68.00
Length:52615
Class :character
Mode :character
[1] 66 2
Min. : 1.00
1st Qu.:19.25
Median :35.50
Mean :35.36
3rd Qu.:51.75
Max. :68.00
Length:66
Class :character
Mode :character
[1] 29977 3
Length:29977
Class :character
Mode :character
Length:29977
Class :character
Mode :character
Length:29977
Class :character
Mode :character
[1] 84138 4
Min. : 9327
1st Qu.: 4259774
Median : 6057754
Mean : 5222065
3rd Qu.: 6262024
Max. :61532443
Length:84138
Class :character
Mode :character
Min. : -1.0
1st Qu.: 8.0
Median : 28.0
Mean : 539.7
3rd Qu.: 135.0
Max. :9999.0
Min. : 1001
1st Qu.: 18454
Median : 41748
Mean : 45570
3rd Qu.: 75475
Max. :107520
NA’s :23682
[1] 263 4
Min. : -1.0
1st Qu.: 83.0
Median :1005.0
Mean : 651.4
3rd Qu.:1070.5
Max. :9999.0
Length:263
Class :character
Mode :character
Length:263
Class :character
Mode :character
Mode :logical
FALSE:219
TRUE :44
[1] 20858 3
Min. : 3
1st Qu.: 7869
Median : 15681
Mean : 43010
3rd Qu.: 66834
Max. :194312
Length:20858
Class :character
Mode :character
Min. : 1.000
1st Qu.: 1.000
Median : 1.000
Mean : 1.062
3rd Qu.: 1.000
Max. :100.000
[1] 13764 4
Length:13764
Class :character
Mode :character
Length:13764
Class :character
Mode :character
Min. : 0.000
1st Qu.: 4.000
Median : 4.000
Mean : 5.296
3rd Qu.: 5.000
Max. :156.000
Length:13764
Class :character
Mode :character
[1] 4358 3
Min. : 35
1st Qu.: 8076
Median : 16423
Mean : 52519
3rd Qu.: 98685
Max. :191576
Length:4358
Class :character
Mode :character
Min. : 1.000
1st Qu.: 1.000
Median : 1.000
Mean : 1.813
3rd Qu.: 1.000
Max. :60.000
[1] 21880 6
Length:21880
Class :character
Mode :character
Length:21880
Class :character
Mode :character
Min. :1949
1st Qu.:2001
Median :2012
Mean :2008
3rd Qu.:2018
Max. :2024
Min. : 1
1st Qu.:273
Median :497
Mean :442
3rd Qu.:608
Max. :752
Min. : 0.0
1st Qu.: 3.0
Median : 31.0
Mean : 161.4
3rd Qu.: 139.0
Max. :11695.0
Length:21880
Class :character
Mode :character
[1] 468 3
Min. : 1.0
1st Qu.:250.5
Median :466.0
Mean :433.5
3rd Qu.:625.2
Max. :752.0
Length:468
Class :character
Mode :character
Min. : 1.0
1st Qu.:186.0
Median :411.0
Mean :360.6
3rd Qu.:512.5
Max. :697.0
NA’s :145
Najwięcej jest klocków w kolorze czarnym, co odpowiada też zapasom klocków o tym kolorze. Najwięcej dostępnych zestawów jest z kategorii Millennium Falcon. Na drugiej pozycji znajduje ię Taj Mahal. Średnio najdroższym zestawem (z najpopularniejszych) jest liebhner Crawler Crane LR 13000. Znacząca większość klocków jest produkowana z plastiku. Są też klocki zrobione z Kartonu i papieru, materiału, gumy i w niektórych przypadkach z piany, rozciągliwego plastiku oraz metalu. Z każdym rokiem ceny zestawów rosną. # Sekcję próbującą przewidzieć dalsze cechy zestawów Lego.
## Linear Regression
##
## 1085 samples
## 8 predictor
##
## No pre-processing
## Resampling: Cross-Validated (10 fold)
## Summary of sample sizes: 976, 976, 976, 977, 976, 977, ...
## Resampling results:
##
## RMSE Rsquared MAE
## 11.93089 0.9354219 7.028383
##
## Tuning parameter 'intercept' was held constant at a value of TRUE
## RMSE Rsquared MAE
## 14.2532114 0.9534482 6.8310100